home *** CD-ROM | disk | FTP | other *** search
/ Collection of Internet / Collection of Internet.iso / protocol / standard / sgml / osu_cis0 < prev    next >
Text File  |  1993-07-14  |  3KB  |  73 lines

  1. (Message net/comp/text:5097)
  2. Path: math.lsa.umich.edu!zaphod.mps.ohio-state.edu!samsung!uunet!tut.cis.ohio-state.edu!xylophone.cis.ohio-state.edu!jbarnes
  3. From: jbarnes@xylophone.cis.ohio-state.edu (Julie Ann Barnes)
  4. Newsgroups: comp.text
  5. Subject: new tech report
  6. Message-ID: <82358@tut.cis.ohio-state.edu>
  7. Date: 23 Jul 90 15:28:23 GMT
  8. Sender: news@tut.cis.ohio-state.edu
  9. Reply-To: <jbarnes@cis.ohio-state.edu>
  10. Organization: Ohio State University Computer and Information Science
  11. Lines: 60
  12.  
  13. We have recently published the following technical report:
  14.  
  15. Analysis of Document Encoding Schemes: A General Model and Retagging
  16. Toolset
  17. Julie Barnes
  18. OSU-CISRC-7/90-TR19, July, 1990, 69 pp.
  19.  
  20. If you would like a copy, you may send the request via email to
  21.  
  22. strawser@cis.ohio-state.edu
  23.  
  24. Please include your postal mailing address.
  25.  
  26.  
  27.                                 ABSTRACT
  28.  
  29. Many document encoding schemes and software applications to process
  30. electronically encoded documents exist today.  The plethora of schemes
  31. complicates the development of applications that must access documents
  32. in more than one representation.  A uniform representation of
  33. electronic documents would greatly facilitate software development.
  34.  
  35. Unfortunately, the retagging of existing electronic documents is
  36. difficult, given the current development tools.  The fundamental
  37. problem of distinguishing the markup from the text strings is
  38. complicated by problems such as context-sensitive markup, implicit
  39. markup, white space, and the matching of start and end tags.
  40. Lexical-analyzer generators such as Lex are based on formal models
  41. that are inadequate to handle these problems.  Because of this, much
  42. of the retagging code must be written by hand.
  43.  
  44. Based on a generalization of these problems, we develop a new model
  45. for textual data objects with embedded markup.  The new model for
  46. textual data objects is based on the relationships between markup and
  47. text strings.  The model includes four classes of markup strings:
  48. symbol, nonsymbol, implicit segmenting, and explicit segmenting tags.
  49.  
  50. We propose a uniform representation called a Lexical Intermediate Form
  51. with the following lexical properties: 1) the tags are easy to
  52. distinguish from the text, 2) the tags are unambiguous, and 3) the
  53. tags are explicit.  The LIF borrows its concrete syntax from the ISO
  54. standard SGML, but it is not encumbered with the SGML concept of
  55. document-type definitions.
  56.  
  57. Based on the model and the proposed LIF, we identify two steps in the
  58. retagging process and develop software tools that automatically
  59. generate the code for each of these steps.  Experiences using the
  60. toolset are described for six encoding schemes of varying complexity:
  61. the Thesaurus Linguae Graecae, the Dictionary of the Old Spanish
  62. Language, the Lancaster-Oslo/Bergen Corpus, the Oxford Concordance
  63. Program, WATCON-2, and Scribe.  Use of the toolset represents a
  64. savings in coding effort ranging from 4.3 to 23.2 lines of code
  65. generated per line of specification in the toolset.  Approximately 98
  66. per cent of the retagging code for these encoding schemes was
  67. automatically generated by the toolset.
  68. -=-
  69. Julie A. Barnes            Department of Computer and Information Science
  70. jbarnes@cis.ohio-state.edu         The Ohio State University
  71.                            2036 Neil Ave.
  72.                     Columbus, OH USA 43210-1277
  73.